Reinforcement Learning

  • Der Comnputer simuliert die Umgebung. In dieser passiert etwas.
  • Der Agent probiert durch viele Episoden, ob etwas funktioniert.
  • Der Interpreter gibt dem Agenten ein Reward, was den Agenten fördert, positive Schritte zu wählen.

Ziel: maximieren der Rewards